iT邦幫忙

2022 iThome 鐵人賽

DAY 21
0
Mobile Development

大家的心聲手機查系列 第 21

基本資料清理

  • 分享至 

  • xImage
  •  

由先前的說明,可以下載Google Sheet 的資料為一個 *.csv 檔案,預期它會是一筆資料為一列以逗號分開欄位的文字,但有時候事情就是不會那麼簡單,而且通常不會那麼簡單。

資料通常需要經過清理後,調整成「結構化」的樣子,後續才可以使用,就如同前面所述,不但要結構化,還是把缺失值、不同類型的資料做一致的處理。

這個專案的資料來源還算清楚簡單,只有一個欄位也會是最容易遇到問題的一種欄位,就是一個資料欄內有多行的文字。在下載成為 *.csv 檔後,這類型的資料會直接「換行」並且把後續的分隔符號也一併截斷成一筆新的資料行。

直接使用,會變成有很多不連續且不知所云的資料集。

既然知道有這個特性,我們要做的也就很簡單:
一、預處理:把資料讀入,將需要修正不該換行的字元調整回來
二、以「|」為連接字元進行修訂
三、重新存成新的資料集
四、將資料讀入後預備後續分析

讀入處理可以以python 以最簡單的讀檔、判斷字元、處置然後存檔
https://ithelp.ithome.com.tw/upload/images/20221006/20141314WDuPfYWZHF.png

資料讀入的方式有很多方式,這裏示範兩種:以csv package 以及panda package 來讀入
https://ithelp.ithome.com.tw/upload/images/20221006/20141314mgsf15gbjP.png

https://ithelp.ithome.com.tw/upload/images/20221006/20141314ZlPoMWIxrW.png

哪一種方式最簡便以及直覺,一看就知道~


上一篇
幾個分析及系統相關的重點
下一篇
資料分析後的模型佈署
系列文
大家的心聲手機查30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言